%D0%92%D0%94%D1%83%D0%B4%D1%8C_%D0%BB%D0%BE%D0%B3%D0%BE%D1%82%D0%B8%D0%BF.jpg

"вДудь"* в цифрах

*Юрий Дудь признан иноагентом

Содержание

Описание проекта

В этом проекте происходит исследование данных о выпусках одного из самых известных русскоязычных youtube*-каналов с интервью. Аудитория этого канала на текущий момент составляет более 10 млн человек.

Предыстория: в книге Александра Богачева "Графики, которые убеждают всех" я увидела анализ данных канала Юрия Дудя* в качестве примера, как можно подходить к разбору темы с разных сторон (А.Богачев "Графики, которые убеждают всех", Издательство АСТ, 2020; стр.58-72). В книге разобраны данные о выпусках 2017 года. С тех пор прошло уже более 5 лет, и мне стало интересно узнать, что изменилось на канале за это время.

Основные задачи:

План работы:

Описание данных:

Данные о просмотрах, лайках, комментариях, продолжительности и названии видео собраны с платформы youtube при помощи API. Для этого понадобилось зарегистрироваться на платформе в разделе google developers и получить там API-ключ. Далее в jupyter notebook были загружены необходимые бибилиотеки, получены и обработаны данные, сформированы датафреймы.

Дата сбора данных: 18 ноября 2022 года

Данных о профессиях и именах героев каждого видео за первые 4 года были получены отсюда: https://stevsky.ru/interesno/uriy-dud-v-tsifrach-4-goda-statistiki (но были внесены некоторые правки)

Остальные данные об именах и профессиях героев, их дате и месте рождения добавлены из Википедии*-свободной энциклопедии.

Роскомнадзор: сайт нарушает закон РФ Минюст признал иноагентом
Роскомнадзор: сайт нарушает закон РФ Роскомнадзор: сайт нарушает закон РФ

P.S. Удивительно, как быстро сжалось пространство свободы: ещё 2 года назад в книге "Графики, которые убеждают всех" автору не нужно было ставить никому ни одной маркировки. Теперь же - прошу прощения за постоянное "спотыкание" при чтении, необходимые сноски сделаны ради безопасности.

Открытие данных

Импортируем необходимые библиотеки:

Для того, чтобы было удобно рассматривать большие числа, внесём некоторые изменения:

Загружаем датафрейм с общей информацией о канале:

Загружаем датафрейм с подробными данными обо всех видео канала:

Создадим второй датафрейм, который будем дополнять и преобразовывать. В дальнейшем его можно будет сравнить с изначальными данными (например, по количеству столбцов).

Применяем собственную функцию для ознакомления с данными:

Вывод:

Предобработка данных и создание новых данных внутри датасета

Предобработка

Приводим данные к форматам, которые понадобятся для удобства дальнейшего исследования:

Заполним пропуски:

Создание новых данных внутри датасета

Выделим возраст гостя на момент выхода интервью с ним:

Выделим условные поколения. Поскольку у теории поколений есть разные версии, выберем ту, что подходит к нашему исследованию больше всего: https://ru.wikipedia.org/wiki/Теория_поколений#Мини-поколения_в_России_(1902-2001) (раздел 6.Теория поколений в Постсоветском пространстве)Роскомнадзор: сайт нарушает закон РФ

Для создания столбца со значениями поколений выделим отдельно год рождения героев:

Создадим функцию для определения категорий поколений:

Применяем функцию, создаём новый столбец:

Также, согласно действующему законодательству: http://duma.gov.ru/news/50394/, можно выделить "молодёжь" - людей в возрасте от 14 до 35 лет. Выделим гостей, которые на момент выхода видео считались молодёжью с точки зрения закона, а кто нет. Создадим функцию:

Теперь дополним имеющиеся данные о месте рождения героев. У нас имеются названия регионов России. Мы можем добавить сведения о том, к каким федеральным округам относятся эти регионы. Для этого нам понадобятся новые внешние данные:

Данные получены отсюда: https://mydata.biz/ru/catalog/databases/oktmo

Присоединяем таблицу с федеральными округами:

Заполняем пропуски:

Проверяем:

Подозрительно много данных в варианте "неизвестно", проверим, что внутри:

Есть проблема: некоторые места, видимо, записаны по-разному в двух таблицах, поэтому они не соединились правильно. Посмотрим, какие у нас варианты в таблице regions:

Вносим правки в нашу основную таблицу, чтобы все регионы назывались правильно:

Убираем столбец, который присоединился неправильно:

И присоединям заново. Теперь должно быть без ошибок:

Проверяем: количество строк "неизвестно" в федеральных округах должно быть такое же, как и в названиях регионов:

Мы убедились: теперь всё присоединено без ошибок.

Также добавим разделение на категории: выделим отдельно Москву, Санкт-Петербург и регионы России. Создадим функцию:

И применим её:

Выделяем составные части дат выпусков (год, месяц, неделю, день месяца, название дня недели):

Добавим столбец с продолжительностью видео в минутах (для удобства дальнейших расчётов):

Большинство гостей канала - мужчины. Но попробуем выделить и другие варианты (например, женщины, смешанные группы):

Применяем функцию и добавляем новый столбец:

Выделим информацию о субтитрах на английском языке:

Названия выпусков отличаются по длине: есть и лаконичные, и длинные названия. Это может помешать нам при визуализации. Создадим короткую версию названий видео в отдельном столбце. Для этого напишем функцию:

И вставим новый столбец рядом с полным названием видео в начало датафрейма:

Также для удобства восприятия дальнейшей визуализации создадим столбец, где просмотры будут указаны в миллионах:

Создадим более широкую группировку гостей по профессиям:

Определим выпуски, в которых гость - тот человек, который уже однажды был на интервью на этом канале. Создаём список из имён таких гостей:

Создаём столбец, где будет указано, дублируется этот гость или нет:

Создание новых метрик

Отношение аудитории к выпуску можно оценить не только с помощью имеющихся чисел (количество просмотров, лайков, комментариев), но и с помощью отношения этих показателей друг к другу.

С помощью новых расчётов мы сможем выделить:

  1. Самые понравившиеся выпуски. В этом нам поможет процент лайков от просмотров: чем выше показатель, тем благосклонее аудитория.
  2. Самые обсуждаемые выпуски. Чем выше процент комментариев от просмотров, тем большее обсуждение вызвал выпуск.

Это наиболее очевидные метрики. Но кроме них, мы попробуем замерить негативную дискуссионную реакцию:

  1. Процент комментариев от лайков. Этот показатель поможет определить отношение активной аудитории, в каком-то смысле это показатель ажиотажа и, возможно, негатива в комментариях: чем ближе показатель к 100, тем выпуск оказался более дискусионным.

Почему мы будем замерять "негатив" таким образом?

Мы находимся в ситуации, когда у нас нет доступа к информации о дизлайках (счётчик дизлайков скрыт, о мотивах принятия такого решения можно прочитать здесь: https://support.google.com/youtube/thread/134803817/Новости-об-отметках-Не-нравится?hl=ru&msgid=134803817). Поэтому мы можем по косвенным проявлениям попытаться увидеть негативную реакцию аудитории.Что может сделать пользователь, если он недоволен? Конечно, он может просто не смотреть или не досмотреть выпуск. Но он также может оставить свой негативный комментарий. Если комментариев по отношению к лайкам становится больше, возможно, это повод насторожиться: в комментариях может быть не совсем дружественная дискуссия. Это мы и попытаемся замерить в этой метрике.

Добавим новые данные в датафрейм:

У нас получилось много столбцов, распределим их положение внутри датафрейма согласно логике их содержания. Посмотрим, в каком порядке расположены столбцы сейчас:

Определим новый порядок расположения столбцов:

Проверяем новый порядок:

В заключение сравним количество столбцов начальных данных и дополненного датафрейма:

Вывод

Главные числа канала

Общую информацию о канале мы сразу собрали при помощи API в отдельный датафрейм:

Попробуем разобраться, в чём секрет притягательности данного канала для аудитории.

Выпуски: топ, минимум, среднее

Топ-10: просмотры, лайки, комментарии

Выделим топ-10 выпусков по просмотрам за всё время:

Для удобства чтения графика выберем горизонтальный вид столбчатого графика. Поскольку просмотры - это в каком-то роде метрика привлечения внимания, для визуализации используем жёлтый цвет - ведь он тоже привлекает внимание:

Теперь посмотрим, какие выпуски собрали больше всего лайков:

Чтобы показать, что этот параметр нас особо интересует, и чтобы подчеркнуть его "живую" природу, используем не ровный цвет, а палитру с мягким переходом оттенков:

Топ-10 по лайкам отличается. Причём, можно сказать, значительно. Посмотрим, а что входит в топ-10 выпусков по количеству комментариев:

Для этого графика выберем контрастный тёмный цвет, например, зелёный:

И снова у нас новый рейтинг. Сравним эти графики между собой, для удобства расположим их рядом:

Вывод

Если мы сравним топ-10 выпусков по просмотрам, лайкам и комментариям, то мы увидим смесь разных видео, где часть названий повторяется, часть не повторяется, и всё это происходит с практически постоянной перестановкой мест.

О чём это нам говорит?

Что всё это в сумме может сообщить нам?

Более подробно мы можем рассмотреть такие эффекты с помощью новых метрик.

Топ-10: новые метрики

Отбираем нужные данные:

Строим графики сразу рядом для удобства сравнения:

Вывод

Эти метрики показывают нам более скрытые и интересные проявления реакции аудитории, чем мы видели в топах на предыдущем шаге. При этом, например, процент лайков от просмотров даёт нам даже более ценную информацию, чем просто лайки или просмотры, взятые по отдельности. Итак, что мы здесь можем увидеть:

Минимум: просмотры, лайки, комментарии

Подойдём теперь к рассмотрению показателей с противоположной стороны. Выделим новые датафреймы:

Построим графики снова рядом:

Выводы

Минимум: новые метрики

Создадим новые датафреймы:

Снова сделаем несколько графиков рядом:

Вывод

Среднее: просмотры, лайки, комментарии

Рассчитаем средние показатели для всего датафрейма. Сравним среднее арифметическое и медиану по просмотрам:

Поскольку они значительно отличаются, для дальнейшего исследования будем брать медиану. Поступим аналогично и с другими параметрами.

Среднее: новые метрики

Выпуски, затронувшие широкую аудиторию

Выделим выпуски, число просмотров которых заметно превысило число подписчиков канала на данный момент. Предположим, что в том случае, когда выпуск посмотрело в 2 раза больше людей по сравнению с числом подписчиков, это видео вышло вовне основной аудитории и вызвало более широкий общественный резонанс.

Для начала выделим число подпичиков:

Теперь отберём в датафрейм нужные строки:

Какие это выпуски и отличаются ли они в показателях от остальных видео?

Сначала сравним эти резонансные выпуски по основным показателям с медианным значением.

Мы отобрали эти выпуски по (рекордному) количеству просмотров, поэтому мы изначально понимаем, что все они точно превосходят медианное значение по просмотрам. Но так ли дело обстоит и с другими основными счётчиками?

Расположим строки по количеству просмотров, и у нас получится расширенный топ-10:

Это было вполне ожидаемо: много просмотров, много и лайков с комментариями. Теперь посмотрим, влияет ли рекордное количество просмотров на показатели новых метрик: так же ли они высоки, все ли обходят медиану?

Самое время узнать, где же могут прятаться настоящие секреты успеха, какие параметры влияют на тёплый приём аудитории и обсуждаемость выпусков.

Профессиональные сферы гостей: кто приходит на интервью и кто больше интересует аудиторию?

Кто приходит

Посмотрим, гости из каких сфер участвуют в выпусках и кого из них больше.

Для построения графика с разными категориальными значениями нам понадобится палитра с разными цветами. Например, выберем такую:

Нам нужно 14 цветов, уберём из этих 20 первые 2 цвета (слишком бледные) и последние 4 (слишком тёмные). Выведем на экран значения цветов, скопируем их и создадим свою палитру, убрав лишнее:

Посмотрим, как реагирует аудитория на гостей из разных сфер. Например, собирают ли выпуски с музыкантами больше просмотров и лайков, чем гости из других сфер? Преобладание музыкантов - это прихоть авторов или оно подогревается желанием аудитории видеть именно таких гостей?

Кто больше интересует аудиторию

Создадим новый датасет, где рассчитаем средние показатели по всем сферам:

Визуализируем данные, расположив профессиональные сферы так же, как в прошлом графике, от большего числа выпусков к меньшему:

О чём это говорит?

Более точно определить отношение аудитории мы сможем с помощью новых метрик. Как же принимает аудитория самые многочисленные выпуски с гостями из сферы "музыка"? Можно предположить, что, если показатели двух положительных метрик (первых двух, а в особенности % лайков от просмотров) не выше медианы, то авторы канала сняли так много музыкантов в каком-то смысле в ущерб себе, и интересы авторов и отношение зрителей немного разошлись.

В заключение сравним ещё раз три самых важных графика по этому вопросу:

Вывод

Возраст гостей: "молодёжь" и условные поколения

Кто приходит

Сначала рассмотрим вопрос с точки зрения того, является ли гость представителем молодёжи или нет (напомню, мы имеем ввиду законодательное определение молодёжи - это люди в возрасте от 14 до 35 лет):

Теперь рассмотрим вопрос с точки зрения поколений.

Создаём датасет с нужными данными:

Строим график:

Кстати, посмотрим, герои каких выпусков являются представителями Молчаливого поколения:

Кто больше интересует аудиторию

Теперь посмотрим, как аудитория реагирует на гостей разных возрастов. Рассмотрим вопрос сразу с точки зрения различных поколений, т.к. это будет более информативно:

Складывается впечатление, что смотрят - всех, любят - молодых, комментируют - людей более зрелых. Проверим это на новых метриках:

Резюмируем наблюдения:

Вывод

Пол: уступают ли женщины мужчинам в популярности?

Создадим датафрейм:

Выберем цвета для этого вопроса:

Как мы видим, подавляющее большинство гостей - мужчины. Оправданный ли это выбор с точки зрения реакции аудитории?

Посмотрим на ситуацию с помощью новых метрик:

Подведём итоги:

Вывод

Получается интересный момент: канал, который известен благодаря интервью, в плане отклика аудитории имеет более тёплый приём не индивидуальных, а коллективных выпусков.

Ответ на вопрос "Уступают ли женщины мужчинам в популярности?" будет таким: "Нет, не уступают. Несмотря на небольшое число выпусков с женщинами, аудитория проявляет к ним повышенный интерес и даже чуть более тепло на них реагирует".

Места рождения гостей: есть ли закономерности?

Рассмотрим теперь такой вопрос: из каких регионов (или стран) чаще всего оказываются родом герои интервью? Есть ли тут какая-либо закономерность? Можно предположить две противоположные версии:

  1. На интервью приходят знаменитости, которые чего-то добились в жизни и стали интересны широкому кругу людей. Они добились этого, потому что у них был хороший "стартовый капитал" - они родились в крупных городах, где лучше экономика, образование, и в целом больше возможностей для самореализации в разных сферах.
  2. Гости как раз чего-то добились, потому что они родом из небольших поселений, а не городов-миллионников. У них было больше мотивации чего-то достичь и они этого достигли.

Теперь посмотрим, из каких именно регионов родом гости канала. Создаём датафрейм:

Строим графики:

Посмотрим ради интереса на Приволжский и Дальневосточный округ, они выделяются на двух последних графиках:

Конечно, всё это не очень серёзно: ведь здесь очень маленькие выборки и очень отдалённый от сути параметр, чтобы искать настоящую взаимосвязь, но ради интереса мы можем посмотреть, а кто же эти люди и что это за выпуски:

Заинтересовали аудиторию:

Не заинтересовал:

Публика прохладно приняла:

Резюмируем наши наблюдения. Поскольку предполагать, что место рождения героя всерьёз может оказывать влияние на интерес публики или теплоту её приёма мы не будем, сосредоточимся на распределении мест рождения гостей выпусков.

Вывод

Документальные фильмы / интервью: есть ли разница в активности аудитории?

Чтобы разобраться в этом вопросе, создадим датафрейм:

Посмотрим на соотношение интервью и фильмов на канале:

Как мы видим, подавляющее большинство выпусков - это интервью. Посмотрим, оправдан ли этот выбор с точки зрения зрительской реакции? Так ли любят именно этот жанр?

Вывод

Интервью 2.0: сравнение выпусков с героями, которые пришли на интервью во второй раз

За последнее время обнаружилось новое свойство канала: наблюдение за изменениями героев. Ряд гостей спустя годы снова пришли на интервью, а один герой "продублировался" сразу в двух выпусках, выпущенных подряд. Сравним выпуски с "дублями" гостей. Собираем нужные данные:

Посмотрим, сколько всего таких "дублированных" выпусков в соотношении со всеми выпусками:

Вывод

Субтитры: есть ли влияние на активность аудитории?

С какого-то времени на канале стали появляться английские субтитры. Посмотрим, сколько таких выпусков и влияет ли в среднем наличие субтитров на просмотры и на реакцию на видео.

Посмотрим, кстати, когда вышло первое видео с такими субтитрами:

Первое видео датируется 2017 годом, получается, это выпуск с первого года существования канала.

Теперь создадим датафрейм с необходимыми данными:

Посмотрим, сколько таких выпусков среди общего количества видео на канале:

И теперь оценим общую картину:

Вывод

Итого: выпуски с субтитрами действительно больше просматриваются, активнее комментируются, но они не завоёвывают никакой особой зрительской любви.

В какие дни, недели и месяцы чаще выходят видео? Есть ли какая-либо закономерность во времени выхода выпусков?

Чтобы узнать ответ на этот впорос, последовательно пройдёмся по всем данным, что у нас есть. Начнём с дней (чисел месяца).

Создадим датафрейм:

Построим график:

Теперь рассмотрим по неделям (каждая неделя пронумерована по порядку на протяжении года):

Теперь посмотрим, каково распределение по месяцам. Создадим датафрейм:

И осталось посмотреть, каково распределение видео по годам:

Вывод

Что интересного мы нашли:

Периодичность выхода видео: динамика по каждому году

Попробуем визуализировать периодичность выхода выпусков. Для этого создадим ряд датафреймов, где будут данные о номерах недель и количестве видео за каждый год:

Поскольку нам нужны все недели, а не только те, в которые выходили видео, создадим список во всеми неделями в году от 1 до 53 и объединим эти данные с имеющимися датафреймами по каждому году. Там, где нет видео, будет 0. Таким образом мы сможем увидеть промежутки между выходом видео за каждый год.

Посмотрим на совместный график:

Вывод

Таким образом мы видим, что периодичность выхода видео на канале с 2017 по 2022 год сильно изменилась. Можно выделить два больших этапа:

Изменение продолжительности видео по годам

Посмотрим, что происходило с продолжительностью видео в разные годы. Создадим датафрейм:

Посмотрим на графике:

Вывод

Зависит ли продолжительность видео от жанра

По годам рост продолжительности видео происходил плавно. Но так ли это на самом деле? Увеличивалась ли длина всех видео постепенно или это связано с жанром фильма и его более высокой продолжительностью?

  1. Посмотрим на ситуацию в разрезе жанра, чтобы понять, как он влияет на продолжительность видео.
  2. Узнаем, как менялось количество выпусков в разных жанрах по годам (возможно, фильмов с каждым годом выходило больше и это повлияло на увеличение средней продолжительности?)

Вывод

Вывод: длина выпусков увеличивалась год от года независимо от жанра. Причём если вначале жанр фильма был движущей силой этой тенденции, то в 2021 году интервью обогнали фильмы по средней длине.

Зависит ли реакция аудитории от продолжительности видео?

Можно предположить две версии:

  1. С увеличением продолжительности видео часть аудитории устаёт, откладывает и не досматривает выпуски. Соответствено у особо длинных видео падают показатели просмотров, лайков и комментариев.
  2. Несмотря на растущую продолжительность, публика заинтересована, поэтому даже если зритель ставит выпуск на паузу, то в дальнейшем он к нему возвращается. Соответственно длина видео, даже около 2-х -часовая, не отражается негативно на реакции аудитории.

Посмотрим, какая версия ближе к реальности.

Начнём с определения границы, что мы будем считать коротким и длинным видео. Построим диаграмму размаха:

Если мы установим планку разделения на категории "короткое видео/длинное видео", например, на уровне 80 минут, то получится, что мы по большому счёту просто будем сравнивать видео первых лет ("коротких видео") с выпусками последних лет ("длинными видео"). Это может привести нас к неверным выводам: ведь число подписчиков росло с каждым годом, соответсвенно это могло оказывать влияние на все показатели (независимо от длины видео). Лучше попробуем отталкиваться в измерениях от медианы каждого года: больше медианы - "длинное", меньше медианы - "короткое" видео.

Проведём подготовительные расчёты:

Поделим видео на короткие и длинные по медиане каждого года:

Сцепим полученные датафреймы за каждый год в два больших: короткие и длинные видео.

Посчитаем метрики зрительской реакции: возьмём просмотры, также узнаем, насколько зрителям понравились видео, насколько они стали обсуждаемыми и вызвали ли ажиотаж/негатив.

Визуализируем данные:

Вывод

Итого: к длинным выпускам аудитория проявляет бОльший интерес, но теплее реагирует на короткие видео.

Кажется, 2022-1 год несёт какие-то изменения: короткие выпуски вышли на первый план по всем направлениям. Скорее всего, это связано с тем, что длина видео выросла настолько, что "короткие видео" в 2022-м году - это максимально длинные по меркам 2017 года.

Выпуски по годам, тенденции

Рассмотрим выпуски отдельно по каждому году. Выделим топ-10 за каждый год по двум самым показательным метрикам: количеству просмотров и проценту лайков от просмотров. То есть мы узнаем, что больше всего заинтересовало аудиторию, и что больше всего понравилось.

Топ-10 самых просматриваемых выпусков за каждый год

Топ-10 самых полюбившихся зрителям выпусков за каждый год

Тенденция: пол

Посмотрим, есть ли какая-либо тенденция в том, гостей какого пола приглашают на интервью. Например, чаще ли со временем стали приглашать женщин? Или, может быть, одинаково редко во все годы?

Агрегируем нужные данные:

Построим несколько графиков. Для начала узнаем:

Теперь посмотрим:

Вывод

Тенденция: возраст

Теперь взглянем на возраст героев. Есть ли какая-либо тенденция: меняется ли с годами количество и соотношение гостей молодого и зрелого возраста?

Сначала рассмотрим вопрос с наболее обобщённого ракурса: явлется ли гость молодёжью (по действующему законодательству РФ это люди от 14 до 35 лет).

Выделяем нужные данные:

Визуализируем:

Теперь рассмотрим ситуацию с точки зрения поколений:

Но можно заметить 3 небольших наблюдения:

Вывод

Какие наблюдения мы имеем:

Таким образом мы видим разнообразие в вопросе возраста. Публика хорошо реагирует на разнообразие поколений, отдавая предпочтение Миллениалам.

Тенденция: профессия

Рассмотрим вопрос профессий. Сможем ли мы выделить какие-то периоды, когда было много представителей одной сферы, потом другой? Или они распределялись равномерно по годам?

Поскольку у нас много профессий, рассмотрим ситуацию на серии графиков по годам:

Вывод

Таким образом мы снова видим разнообразие, также как и в вопросе возраста. И снова аудитория положительно реагирует на такое разнообразие.

Повлиял ли статус иноагента на популярность?

15 апреля 2022 года Минюст РФ внёс Дудя в реестр СМИ — «иностранных агентов». Посмотрим, как на это отреагировала аудитория.

Изменилось ли внимание публики (количество просмотров)? Проявилась ли в большей степени положительная (% лайков от просмотров) или ажиотажно-негативная реакция (% комментариев от лайков) аудитории?

Вывод

Итого: канал продолжает жить своей жизнью несмотря на новый иноагентский статус автора: все показатели в среднем растут, а самые заметные рекорды и анти-рекорды остались позади.

Итоговый рейтинг: фавориты широкой аудитории

Подводя итог, выделим универсальный рейтинг. Для этого создадим новый параметр, где рассчитаем соотношение количества просмотров и подписчиков:

Сложим наше новое измерение с "коэффициентом одобрения" и "коэффициентом обсуждаемости" (то есть с положительными метриками) и вычтем показатель негативной реакции (разделенный на 10, чтобы порядки чисел были сопоставимы):

Так мы получим свой вариант рейтинга, где сразу учитывается влияние и положительных, и отрицательной метрик.

Ещё мы можем создать тепловую карту. Поскольку у нас очень разные величины в метриках (например, просмотры - в миллионах, комментарии - в тысячах, а коээфициент одобрения, например, в единицах), мы будем отображать не сами значения метрик, а место выпуска в рейтинге по каждому параметру. Например, выпуск "Как устроена IT-столица мира" будет иметь "1" в столбце рейтинга просмотров, и "6" в рейтинге количества лайков.

Создаём таблицу с местами в рейтингах:

Выводы

Был произведён анализ одного из крупнейших русскоязычных каналов видеоплатформы youtube (Роскомнадзор: сайт нарушает закон РФ). Данные были собраны при помощи API, были произведены дополнения из других источников.

Главные цифры канала:

Безусловный лидер по просмотрам - выпуск "Как устроена IT-столица мира". В лидерах по количеству просмотров, лайков и комментариев разные выпуски (исключение - 1-е место по лайкам и комментариям). Это говорит о том, что аудитория по-разному проявляет заинтересованность (просмотры), одобрение (лайки) и обсуждение (комментарии) к разным выпускам.

Для более детального исследования были придуманы новые метрики. Одна из них - % лайков от просмотров - показывает уровень одобрения, насколько видео понравилось пользователям. Эта метрика говорит о том, что аудитория наиболее тепло встречает документальные фильмы на сложные и даже трагические темы. Две другие новые метрики - % комментариев от просмотров и % комментариев от лайков - показывают уровень обсуждаемости и уровень ажиотажа/негатива в комментариях. Благодаря этим метрикам мы видим, что наиболее дискуссионными получаются политические и около-политические выпуски.

Также с политикой связаны выпуски с наименьшим уровнем одобрения, а выпуски, имеющие минимумы по всем остальным направлениям, зачастую просто видео первого года существования канала.

Рассчитав средние значения по всем метрикам, мы увидели, что рекордные просмотры (в 2 раза бОльшие, чем число подписчиков) приносят много лайков и комментариев (всегда выше среднего), но не в тех же пропорциях. Это значит, что успех видео измеряется не только просмотрами и каждый раз есть какой-то индивидуальный фактор. Это подтверждают и новые метрики: выпуски с рекордными просмотрами только примерно в половине случаев превышают медиану по уровням одобрения, обсуждения и ажиотажа/негатива. То есть даже рекордные просмотры не гарантируют, что выпуск станет любимчиком публики или вызовет ажиотаж.

Далее в процессе исследования были разобраны вопросы, связанные с нахождением факторов, влияющих на заинтересованность и одобрение публики. Первым был разобран вопрос профессий гостей.

  1. Доминирующая профессиональная сфера гостей - музыка. Также много героев, чья деятельность связана с журналистикой, юмором, театром. При этом "музыка" не доходит до медианы ни по одному из основных метрик (количество просмотров, лайков, комментариев) и лишь ненамного превышает средние значения по уровню одобрения и обсуждения. У аудитории другие фавориты - больше всего пользователи ценят тему "человек и общество", а также писателей и учёных. Обсуждают больше всего эти же упомятнутые три направления плюс политику. А наибольший ажиотаж/негатив вызывают политики, продюсеры и журналисты. Резюмируя наблюдения, можно сказать: больше всего снимают - музыкантов, смотрят - IT и блогинг, любят - тему "человек и общество".

  2. Возраст и поколения гостей. "Молодёжь" (по законодательству люди в возрасте от 14 до 35 лет) не преобладет среди гостей канала. В разрезе поколений мы видим представителей 4-х разных возрастов: от "Молчаливого поколения" (1928-1942) до "поколения Миллениума" (1982-2000). По отношению аудитории мы видим: чуть больше среднего интересуются старшими поколениями, любят - Миллениалов и комментируют Бэби-бумеров. Новые метрики добавляют: зрители больше всего любят не интервью, а выпуски-фильмы, а ещё у аудитории явно непростые отношения с представителями поколения Бэби-бума (минимум одобрения, максимум ажиотажа/негатива). Подводя итог: снимают - молодых, смотрят - зрелых, любят - Миллениалов.

  3. Пол. Большинство гостей канала - мужчины. Но аудитория в среднем активнее реагирует на женщин и смешанные групы, чем на интервью с мужчинами. По новым метрикам мы опять видим, что в фаворитах аудитории скорее выпуски-фильмы, чем интервью. Резюмируя: большинство выпусков на канале - интервью с мужчинами, но аудитория в среднем проявляет бОльший интерес к выпускам-фильмам и интервью с женщинами, а ценит выпуски со смешанными группами и выпуски-фильмы.

  4. Место рождения. География мест рождения гостей канала широка: это РФ, страны СНГ и дальнего зарубежья, а в составе РФ несколько федеральных округов и регионов. Большинство гостей родились на территории современной РФ, многие - в Москве. Аудитория больше интересуется гостями, рождёнными в Москве, но чуть больше любит выходцев из регионов.

  5. Жанр выпуска. Большинство выпусков на канале - интервью. Но аудитория больше смотрит, любит и обсуждает выпуски-фильмы. Самое заметное отличие - в метриках одобрения и ажиотажа/негатива.

  6. Повторные интервью. Небольшое число гостей появлялись на канале во второй раз. Не всегда повторные выпуски привлекали больше внимания аудитории, но каждый раз они сильнее нравились и становились более обсуждаемыми по сравнению с первыми выпусками.

  7. Субтитры на английском языке. Небольшая доля выпусков имеет английские субтитры. Такие выпуски больше смотрят и обсуждают, но они не вызывают бОльшую симпатию, а скорее ажиотаж/негатив.

Далее данные были разобраны по вопросам, связанным со временем:

Ещё о тенденциях:

P.S. Можно по-разному относиться к каналу и его автору, но надо признать: он не выходит из десятки инфлюенсеров весь прошедший год: https://romir.ru/studies/reyting-inflyuenserov-romir-blogery-ustupili-mesto-muzykantam-i-akteram. А в рейтинге инфлюенсеров-блогеров он держится и того выше: https://romir.ru/studies/romir-kseniya-sobchak-vernulas-na-1-mesto-v-reytinge-inflyuenserov-sredi-blogerov.

Кроме того, надо признать его влияние на индустрию:

А по фирменным вопросам и их эволюции от "Сколько ты зарабатываешь", "Что ты скажешь, оказавшись перед Путиным" через "сколько тебе будет в 2036 году" и к "ты допускаешь, что больше никогда не вернёшься в Россию" можно будет судить о конце 2010-х начале 2020-х годов в России.

*Роскомнадзор: сайт нарушает закон РФ

В исследовании упоминаются или могут упоминаться следующие иноагенты:

Всех этих людей Минюст признал иноагентами. При построении графиков нет возможности вносить изменения и ставить звёзочки * прямо в графики, поэтому указываю здесь. Спасибо за внимание.

Презентация

Презентация: https://disk.yandex.ru/i/mqp3xOvdb0cjrA